Semiautomatische Konstruktion von Trainingsdaten für die Suche in historischen Dokumenten

نویسندگان

  • Andrea Ernst-Gerlach
  • Norbert Fuhr
چکیده

Für Retrieval in historischen Dokumenten wird eine Abbildung der Suchbegriffe auf die historischen Varianten in den Dokumenten benötigt. Für diese Abbildung wurde ein regelbasierter Ansatz entwickelt. Der Engpass dieses Ansatzes ist die Konstruktion der Trainingsdaten. Dabei muss ein Experte manuell den historischen Formen, die dem Spellchecker unbekannt sind, die aktuelle moderne Form zuordnen. Zur Verbesserung dieses Verfahrens werden nun die Vorschläge des Spellcheckers betrachtet. Aus jedem Vorschlag und dem zugehörigen unbekannten Wort wird ein Beleg gebildet. Aus diesen Belegen werden nun wie gewohnt Regeln generiert und die häufigsten Regeln akzeptiert. Experimentelle Ergebnisse basierend auf der bisherigen Belegkollektion zeigen, dass ein großer Teil der Regeln auf diese Weise generiert werden kann. Dadurch können die Trainingsdaten deutlich schneller und mit geringerem manuellem Aufwand erzeugt werden.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung für die Suche in historischen Dokumenten

Retrieval in historic documents with non-standard spelling requires a mapping from search terms onto the terms in the document. For describing this mapping, a rule-based approach has been developed. The RuleGenerator user interface enables the user to create evidences automatically and hence to generate and edit rules. With an eyetracker-based user evaluation the usability of this tool has been...

متن کامل

Nutzenpotentiale von RFID-Technologien in Anwaltskanzleien

Obgleich die Verbreitung von RFID in vielen Bereichen der Wirtschaft bereits heute erfolgt ist, hat sich der Einsatz in Anwaltskanzleien bis heute kaum etabliert. Vor dem Hintergrund akuter Probleme im Rahmen der Identifizierung, Verfolgung und Verwaltung von Dokumenten kann diese Technologie in Kanzleien jedoch eine gezielte Verbesserung verschiedener Teilprozesse im Bearbeitungsablauf eines R...

متن کامل

Maschinelle Übersetzung für historische Sprachen

Der Workshop ”Maschinelle Übersetzung für historische Sprachen” hat am 13. Mai an der Universidad Politèchnica de Catalunya in Barcelona stattgefunden. Er war als begleitendes Ereignis zur europäischen Konferenz über Maschinelle Übersetzung (EAMT09) organisiert. Der Zusammenhang zwischen den beiden Ereignissen war nicht nur der Begriff ”Maschinelle Übersetzung”, sondern auch die Thematik der Ha...

متن کامل

Perspektiven der inhaltsbasierten Suche: strukturierte Dokumente, Einbeziehung des Kontextes, Peer-to-Peer

Information Retrieval beschäftigt sich mit der Suche nach Dokumenten, die einer Person in einer gegebenen Situation nützlich sein könnten. Historisch hat dabei lange die Suche nach flachen (d.h. unstrukturierten) Textdokumenten im Vordergrund gestanden. Der Vortrag betrachtet nun drei aktuelle Forschungslinien zur inhaltsbasierten Suche im Information Retrieval: Zunächst ist dabei die Suche in ...

متن کامل

Dynamische Menüs zur Recherche und Orientierung. Konzeption der thematischen Suche für den Informationsservice "WebSite 'Methodik"

Das Konzept einer themenorientierten Suche wird vorgestellt, das gleichzeitig das Ziel verfolgt, dem Nutzer Orientierung über die inhaltliche Ausgestaltung eines Informationsbestandes zu geben. Es wurde für WebSite `Methodik entwickelt, einen WWW-Server für Distance Learning in dual mode, und ist übertragbar auf Dokumentensammlungen mittlerer Größe, die begriffsorientiert indexiert sind. Nutzer...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010